喜报丨再次夺冠!科大讯飞包揽第五届国际多通道语音分离和识别大赛(CHiME-5)全部冠军
CHiME(Computational Hearing in Multisource Environments)属于国际语音识别评测中的高难度比赛,始办于2011年,由法国计算机科学与自动化研究所、英国谢菲尔德大学、美国三菱电子研究实验室等知名研究机构所发起。比赛的目的是希望学术界和工业界针对高噪声和混响等现象影响下的实际场景提出全新的语音识别解决方案,以进一步提升语音识别的实用性和普适性,目前CHiME比赛已经举办五届,成为业界影响力最大、参赛队伍最多、水平最高的多通道噪声鲁棒性语音识别比赛。
历届CHiME比赛的参赛队伍包括英国剑桥大学、美国卡内基梅隆大学、约翰霍普金斯大学、日本NTT、日立中央研究院、德国RWTH亚琛大学等国际一流高校和研究机构,以及清华大学、中科院声学所、中科院自动化所、西北工业大学等国内顶尖院校和研究所。
本届大赛组委会通过采用4声道麦克风阵列对20个真实家庭的晚餐进行录音来形成比赛数据,用以考察和测试在家庭聚会等不同场景中自由交谈风格下的远场语音识别效果。
音频样本采集场景
赛事的难点主要来自以下方面:
多麦克风阵列的同步录音
对话风格非常自由、近乎随意
大量的语音交叠(Speech Overlap)
远场混响和噪声干扰对录音的影响
在两年之前的上一届比赛(CHiME-4)中,科大讯飞就曾通过和国内外知名院校专家、团队的深入合作和讨论,斩获全部三个项目的桂冠并大幅刷新了各项目历史最好记录:
喜报|科大讯飞包揽CHiME-4国际多通道语音分离和识别大赛三项冠军
而在本届比赛中,科大讯飞与中国科学技术大学杜俊教授、西北工业大学陈景东教授、佐治亚理工大学李锦辉教授等国内外知名专家团队再度携手。最终在单麦克风阵列任务、分布式麦克风阵列任务(Rank A)和两种麦克风阵列对应的两个端到端的语音识别任务(Rank B),共计四项任务中连续两届包揽所有项目冠军,再次大幅刷新各项目的最好成绩。
各参赛机构词错误率对比(单麦克风阵列 Rank A)
各参赛机构词错误率对比(分布式阵列 Rank A)
各参赛机构词错误率对比(单麦克风阵列 Rank B)
各参赛机构词错误率对比(分布式阵列 Rank B)
根据比赛前官方数据,基于主流前端系统和深度学习模型下本次比赛的样本语音识别词错误率(Word Error Rate,WER)高达81.14%,堪称“史上最难语音识别任务"。
而科大讯飞团队所提交的系统,较官方基线系统将WER降低了绝对35个点,在分布式麦克风阵列任务中,系统的效果甚至超过近讲麦克风,这不仅再次证明了科大讯飞在语音识别和多麦克风阵列语音信号处理领域内扎实的基本功和雄厚的实力,也表明了科大讯飞在中文语音识别领域长期保持被追赶地位的同时,英语语音识别领域也达到了同等高度和层次。
此前,在科技部召开的《新一代人工智能发展规划》暨重大科技项目启动会会上,国家宣布了首批四家国家新一代人工智能开放创新平台名单,明确依托科大讯飞建设智能语音国家新一代人工智能开放创新平台。
启动会现场
在本次大赛中,科大讯飞所提交的系统在分布式麦克风阵列任务上所取得的优于近讲麦克风效果的成绩,得到了大赛组办方的高度赞扬。科大讯飞在智能语音技术方面的雄厚实力得到再次肯定与巩固,未来,科大讯飞将继续坚持核心源头技术研发创新,用AI赋能各行各业。
喜报 | 科大讯飞包揽ICPR MTWI图文识别挑战赛三项冠军
喜报 | 科大讯飞摘取Cityscapes评测桂冠,刷新世界记录!
喜报 | 科大讯飞刷新LUNA医学影像国际权威评测世界记录!
文 | AI研究院 ly 责编 | Elaine